Карань Анна
студентка факультета биоинженерии и бионформатики

Нуклеотидные банки данных

Задание 1

В первом задании необходимо охарактеризовать качество сборки какого-нибудь генома эукариотического организма. Была выбрана тихоходка, по причине своей милости и популярности.

Рис.1. Преимущества тихоходки

При введении в поиск NCBI Tardigrada выдается лишь 2 результата для одного вида, все описания приведены в Таблицах 1 и 2.

Таблица 1. Общая информация о секвенировании тихоходки Hypsibius dujardini
Число сборок геномаЧисло проектов по секвенированию организма / число образцов
22/2

Таблица 2. Информация об одной из сборок тихоходки Hypsibius dujardini
Описание образца (BIOSAMPLE)Описание проекта (BIOPROJECT) Число контигов/скэффолдов сборки
Образец: SAMN04435392
ID: 4435392
Имя образца: Hypsibius dujardini "curated" геном
Штамм: Sciento
Возраст: различный
Пол: и мужской, и женский
Ткань: все тело
Проект: PRJNA309530
ID: 309530
Тип данных: Секвенирование и сборка генома
Охват и чистота образца: Отдельный организм
Организм: Hypsibius dujardini [Taxonomy ID: 232323]
Eukaryota; Metazoa; Ecdysozoa; Tardigrada; Eutardigrada; Parachela; Hypsibiidae; Hypsibius; Hypsibius dujardini Публикации: Delmont TO et al., "Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies.", PeerJ, 2016 Mar 29;4:e1839
Представление: Дата регистрации - 3-Марта-2016, Университет Чикаго
Актуальность: Эволюция
15443/14960
Tаблица контигов/скэффолдов N50 и L50, самый длинный и самый короткий контигПоследовательность одного из контигов
Список контигов Скэффолд N50 - 17214
Скэффолд L50 - 3119
Контиг N50 - 16753
Контиг L50 - 3224
Самый короткий контиг - 2000
Самый длинный контиг - 283682
Пример последовательности контига

Задание 2

В этом задании нужно описать десять ключей, используемых в таблицах особенностей. Информация о ключах былах взята с сайта INSDC.

Примеры были получены при поиске на сайте NCBI.

Таблица 2. Информация об одной из сборок тихоходки Hypsibius dujardini
КлючОписаниеПример
centromereУчасток ДНК, который соответсвует региону, где хроматиды соединяются, и формируется кинетохор complement(26968..32592)
/locus_tag="TTRE_0000382201"
exon Регион генома, который кодирует участок сплайсируемой мРНК, рРНК и тРНК, может содержать 5'UTR, все CDSs и 3'UTR50533030..50533191
/gene="LOC102633655"
/note="Derived by automated computational analysis using gene prediction method: Gnomon. Supporting evidence includes similarity to: 3 Proteins"
/pseudo
sig_peptideПоследовательность сигнального пептида, кодирует последовательность для N-терминального домена секретируемого белка, этот домен вовлечен в присоединение формируещегося полипептида к последовательности, направляющей к мембране в дальнейшем. /organism="Anolis carolinensis" 30..92
/gene="IL10RB"
5'UTR1)Регион на 5' конце транскрипта (перед инициаторным кодоном), который не транслируется в белок.
2)Регион на 5' конце генома РНК-вирусов (предшествует первому инициаторному кодону), который не транслируется в белок
/organism="Mus musculus"
/chromosome="14"
1..28
repeat_region Регионы генома, содержащие повторяющиеся элементы. /organism="Escherichia coli str. K-12 substr. MG1655"
5565..5669
/note="RIP1 (repetitive extragenic palindromic) element; contains 2 REP sequences and 1 IHF site"
ncRNAНе белок кодирующий ген, отличающися от рибосомальной РНК и транспортной РНК, функциональные молекулы которых являются РНК транскрипты join(191287535..191288036,191288135..191288722)
/ncRNA_class="lncRNA"
/gene="Gm37168"
/product="predicted gene, 37168"
C_regionКонсервативный регион легкой и тяжелой цепей иммуноглобулина, T-клеточных рецепторов α, β, γ цепей, включает один или больше экзонов, в зависимости от цепи /organism="Rattus norvegicus"
406..726
/note="constant region"
STSЦелевой сайт, короткая, неповторяющаяся последовательность, являющаяся ориентиром при картировании генома, может быть обнаружена с помощью ПЦР, регион генома может быть картирован путем сопоставления порядка серии STSs /organism="Escherichia coli str. K-12 substr. MG1655"
1..286
/gene="yebT"
polyA_siteСайт РНК транскрипта, к которому добавляются остатки аденина при пост-транскрипционном полиаденилировании /organism="Homo sapiens"
983
V_regionВариабельный регион легкой и тяжелой цепей иммуноглобулина, T-клеточных рецепторов Α, Β, Γ цепей, последовательности для вариабельной амино терминальной части, может состоять из V-, D-, J- сегментов и N-региона /organism="Mus musculus"
/chromosome="14"
95..421
/product="immunoglobin kappa chain V-J region"

Задание 3

В этом задании необходимо описать состояние дел в одном из массовых геномных проектов.

Число крохотных микрооорганизмов, живущих в организме человека, значительно больше, чем число самих человеческих клеток. В попытке каталогизировать микроорганизмы в организме человека, Проект Микробиома человека (Human Microbiome Project - HMP) собрал образцы от 242 здоровых добровольцев из США и ткани из 15 участков тела у мужчин и 18 у женщин.
HMP проект - попытка более 200 исследователей и более чем 80 научно-исследовательских интститутов (главная, координирующая организация - (NIH) Национальный иститут здоровья, США, Мэриленд, округ Монтгомери, Бетесда) за 5 лет создать первый опорный каталог микробного разнообразия в организме человека. Полученнные 5 терабайт геномных данных, охватывающие более 5 миллионов генов, будут полезны для дальнейших исследований в области метагеномики.
Ссылка на сайт проекта.
Ссылка на проект на сайте лилидрующей организации NIH .
В HMP планировалось секвенировать, или собрать из общедоступных источников, в общей сложности 3000 эталонных геномов, выделенных из участков человеческого тела.
Информация, полученная от эталонных геномов, поможет в таксономическом определении и функциональной аннотации 16s рРНК и метагеномной wgs последовательности, соответственно из метагеномных образцов.
Первая фаза HMP (2007-2012) имела 7 инициатив, направленных на развитие наборов данных метагеномики и вычислительных средств для характеристики микробиомов у здоровых взрослых людей и в случае конкретных микробиом-ассоциированных заболеваний:
1) Разработка опорного набора микробных геномов и предварительная характеристика микробиома человека.
Эта инициатива начинается с секвенирования 600 геномов и культивируемых, и некультивируемых бактерий, а также нескольких небактериальных геномов. В сочетании с существующими и другими планируемыми сейчас проектами общая спправочная коллекция должна достигать более 1000 геномов.
Инициатива будет продолжаться как метагеномный анализ, чтобы охарактеризовать сложность микробных сообществ на отдельных участках тела, а также определить наличие ядра микробиома на каждом участке. Будет проведен анализ 16s рРНК.
2) Выяснение отношений между болезнью и изменением в человеческом микробиоме.
Вторая инициатива включает в себя набор демонстрационных проектов по выделению взаимосвязи между здоровьем человека и изменениями в человеческом микробиоиме.
3) Разработка новых технологий для анализа геномов.
Возможности секвенировать весь геном сейчас ограничены лишь группой культивируемых в лаборатории микробов. Чтобы расширить эти возможности, необходимы новые методы для некультивируемых микроорганизмов.
4) Разработка новых инструментов для компьютерного анализа.
Наборы данных, полученные при метагеномном секвенировании, очень большие и сложные, требующие новых способов анализа.
5) Создание центра анализа данных и координации
Ресурс, где можно будет найти всю информацию о проекте.
6) Создание репозитариев исследований
7) Оценка мультигеномных данных в понимании роли человеческого микробиома в здоровом и патологическом состоянии организма.
Вторая фаза HMP (2013-2015) сфокусирована на одной инициативе по созданию первых в истории интегрированных данных биологических свойств и микробиома, и хозяина с ипользованием мультигеномных технологий
Ссылка на последнюю статью по проекту.

На 2016 год в базе проекта находятся 4767 геномов, но не все секвенированы именно в рамках этого проекта.

Задание 4

В этом задании необходимо составить таблицу митохондриальных генов одного из организмов указанного таксона, в моем случае Rhodophyta.  И как исследуемый организм я выбрала Cyanidioschyzon merolae, её геном был первым полным секвенированным геномом водоросли.

Рис.2.Cyanidioschyzon merolae
во время деления

Рис.3.Рядом 2 особи Cyanidioschyzon merolae,
одна из которых начинает делиться

Обилие фотографий (Рис. 2, 3), демонстрирующих её деление, объясняется использованием этой водоросли для изучения деления, так как клеточной стенки у них нет.
Полные митохондриальные геномы могут быть получены при таком запросе:

complete[TI] AND gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN]

Однако и такой запрос выдает верный результат:

gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN]

так как всего находок 2 (Genbank) и обе - полные митохондриальные геномы.
А если искать по RefSeq, с помощью такого запроса:

refseq[filter] AND complete[TI] AND gene_in_mitochondrion[PROP] AND "Cyanidioschyzon merolae"[ORGN]

то лишь 1 одна находка.
Файл excel со списком митохондриальных генов Cyanidioschyzon merolae
На первом листе - исходный список по всем генам, отсортированный по порядку следования в геноме, и таблица с диаграммой, отражающей абсолютное количество генов различного типа в митохондриальном геноме изучаемого вида (Рис.4).

Рис.4. Распределение генов в митохондриальном геноме Cyanidioschyzon merolae

Задание 5

В данном задании необходимо заполнить таблицу размеров геномов.

Таблица 3. Размеры геномов в разных систематических группах организмов
МинимальныйТипичныйМаксимальный
Вироиды220 пн, вирус желтых рисовых пятнышек (RYMV, rice yellow mottle sobemovirus) (ссылка) 246-467 пн (ссылка на статью)
Вирусы, бактериофагиPorcine circovirus, 1,759 (ссылка) 104Pandoravirus salinus, 2,400,000 пн. (ссылка)
Бактерии, археиMycoplasma genitalium, 580,000 пн (Альбертс, МБК)106 - 107 пн (Альбертс, МБК) Bradhyrhizobium japonicum, 9,200,000 пн (ссылка)
ЭукариотыEncephalitozoon intestinalis, 2,250,000 Разброс у эукариот очень большой. Средним можно назвать - 109 Amoeba dubia, 670,000,000,000 (ссылка)

Рис.5. Размеры геномов

На Рис. 5 изображен относительные размеры геномов по группам эукариот, а архей и бактерий. Видно, что геном эукариот обычно сильно больше, а также что и разброс размера у эукариот значительнее. (при нажатии на изображение оно появится в новом окне, где можно его увеличить и расглядеть названия видов)


©Карань Анна, 2015